1 research outputs found

    Identifying chemical entities on literature:a machine learning approach using dictionaries as domain knowledge

    Get PDF
    Tese de doutoramento, Informática (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2013The volume of life science publications, and therefore the underlying biomedical knowledge, are growing at a fast pace. However the manual literature analysis is a slow and painful task. Hence, text mining systems have been developed to automatically locate the relevant information contained in the literature. An essential step in text mining is named entitiy recognition, but the inherent complexity of biomedical entities, such as chemical compounds, makes it difficult to obtain good performances in this task. This thesis proposes methods capable to improve the current performance of chemical entity recognition from text. Hereby a case based method for recognizing chemical entities is proposed and the obtained evaluation results outperform the most widely used methods, based in dictionaries. A lexical similarity based chemical entity resolution method was also developed and allows an efficient mapping of the recognized entities to the ChEBI database. To improve the chemical entity identification results we developed a validation method that exploits the semantic relationships in ChEBI to measure the similarity between the entities found in the text, in order to discriminate between the correctly identified entities that can be validated and identification errors that should be discarded. A machine learning method for entity recognition error is also proposed, which can efectively find recognition errors in rule based systems. The methods were integrated in a system capable of recognizing chemical entities in texts, map them to the ChEBI database, and provide evidence of validation or recognition error for the recognized entities.O volume de publicações científicas nas ciências da vida está a aumentar a um ritmo crescente. Contudo a análise manual da literatura é um processo árduo e moroso, pelo que têm sido desenvolvidos sistemas de prospecção de texto para identificar automaticamente a informação relevante contida na literatura. Um passo essencial em prospecção de texto é a identificação de entidades nomeadas, mas a complexidade inerente às entidades biomédicas, como é o caso dos compostos químicos, torna difícil obter bons desempenhos nesta tarefa. Esta tese propõe métodos para melhorar o desempenho actual do processo de reconhecimento de entidades químicas em texto. Para tal propõe-se um método para reconhecimento de entidades químicas baseado em aprendizagem automática, que obteve resultados superiores aos métodos baseados em dicionários utilizados actualmente. Desenvolveu-se ainda um método baseado em semelhança lexical que realiza o mapeamento de entidades para a ontologia ChEBI. Para melhorar os resultados de identificação de entidades químicas desenvolveu-se um método de validação que explora as relações semânticas do ChEBI para medir a semelhança entre as entidades encontradas no texto, de forma a discriminar as entidades correctamente identificadas dos erros de identificação. Um método de filtragem de erros baseado em aprendizagem automática é também proposto, e foi testado num sistema baseado em regras. Estes métodos foram integrados num sistema capaz de reconhecer as entidades químicas em texto, mapear para o ChEBI, e fornecer evidência para validação ou detecção de erros das entidades reconhecidas.Fundação para a Ciência e a Tecnologia (FCT, SFRH/BD/36015/2007
    corecore